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摘 要 : 精准 饲 喂 是 全 龄 人 工 饲料 工厂 化 养 看 节 本 增 效 的 核心 技术 之 一 ， 家 看 自动 化 识别 与 计数 是 实现 精 
准 饲 喂 的 关键 环节 。 本 研究 基于 机 器 视觉 系统 获取 工厂 化 养 看 过 程 中 蚕 在 4 龄 和 5 龄 期 的 数字 图 像 ， 利 用 改 


界 框 细 调 策略 ， 从 噪声 数据 中 训练 一 人 
饲料 边界 的 检测 和 分 割 能 


Bet 


一 、 


a 


利用 率 ， 提 升 工厂 化 养 看 生 产 管理 水 平 。 


图 像 平均 检测 时 间 为 1.32 s， 最 长 检测 时 间 为 2.05 s, 


进深 度 学 习 模 型 Mask R-CNN 检测 看 体 和 残余 饲料 。 通 过 在 Mask R-CNN 模 型 框架 中 加 入 像素 重 加 权 策 略 和 
和 鲁 棱 性 更 好 的 目标 检测 模型 ,实现 模型 性 能 的 优化 ， 提 高 对 看 体 
。 改 进 Mask R-CNN 模 型 对 看 的 检测 和 分 割 交 并 比 阅 值 为 0.5 时 的 平均 精度 
Average Precision at IoU=0.5，AP50) 分 别 为 0.790 和 0.795， 识 别 准确 率 为 96.83%; 对 残余 饲料 的 检测 和 分 
AP50 分 别 为 0.641 和 0.653， 识 别 准确 率 为 87.71%。 模 型 部 署 在 NVIDIA Jetson AGX Xavier 开 发 板 上 ， 单 张 
运算 速度 可 以 满足 养 春 盒 单元 在 生产 线 上 移动 实时 检 
1 的 要 求 。 该 研究 为 工厂 化 养 看 精准 饲 喂 信 息 系 统 和 投 喂 装置 的 研发 提供 了 核心 算法 ， 可 提高 人 工 饲 料 的 
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1 引言 


全 龄 人 工人 饲料 工厂 化 养 耕 是 一 种 全 新 的 家 在 
饲养 模式 , 它 以 人 工 饲料 代替 桑 叶 ,通过 控制 环 
境 , 以 工业 化 流水 线 方式 实现 家 和 蛋 自 动 化 大 规模 
周年 循环 饲养 ,颠覆 了 传统 的 家 香 饲 养 模式 , Fe AE 
业 转 型 升级 的 重要 方向 ”。 全 龄 人 工 饲料 工厂 
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化 养 看 技术 体系 的 研究 取得 了 诸多 成 果 , 已 建成 
投产 了 全 龄 期 使 用 人 工 饲 料 的 规模 化 养 看 工 
厂 ”“。 人 工 饲料 的 生产 是 工厂 化 养 看 的 主要 投 
入 ,饲料 的 加 工 和 饲 喂 是 最 重要 的 技术 环节 之 一 。 
因此 ,严格 控制 饲料 用 量 .提高 饲料 利用 率 对 控制 
工厂 化 养 看 成 本 具有 十 分 重要 的 意义 。 目 前 , 工 
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三 化 养 春 采用 常量 投 喂 模式 , 即 在 同一 龄 期 中 ,每 
个 养 鼻 盒 单 元 中 的 人 工 饲 料 投 喂 量 是 相同 的 。 然 
而 , 随 着 饲养 的 进行 ,由 于 和 蛋 盒 中 的 初始 尽 和 蛋 数 量 
不 同 #2 SETH .出 现 疑 似 病症 人 工 移 除 Fe ES 
盒 等 多 种 因素 会 导致 蛋 盒 中 的 乔 数 出 现 较 大 的 差 
异 。 因 此 ,常量 投 喂 会 导致 喂食 不 均 .饲料 过 多 或 
不 足 等 情况 ,最 终 导 致 饲料 浪费 或 蛋 革 质量 下 降 。 
因此 ,精准 投 喂 人 工 饲料 对 提高 饲料 利用 率 降低 
饲养 成 本 和 提高 春草 的 质量 具有 重要 意义 。 根 据 
看 的 数量 投 喂 人 工 饲料 是 一 种 有 效 实 现 看 精准 饲 
喂 的 方法 ,需要 首先 快速 准确 地 检测 每 个 养 答 盒 
单元 中 的 看 数 , 并 将 其 转换 成 该 看 盒 所 需 投 喂 的 
饲料 量 并 传输 给 投 喂 装 置 ,装置 收 到 信和 号 后 即时 
调整 出 料 量 ,达到 精准 饲 喂 目的 。 

图 像 识 别 中 的 目标 检测 技术 可 用 于 对 看 进行 
识别 并 计数 。 传 统 的 目标 检测 方法 多 是 基于 目标 
物体 边缘 相关 特征 “1， 虽然 在 特定 场景 下 能 够 
得 到 较 好 的 检测 精度 和 速度 ,但 自 适应 性 和 泛 化 
性 较 弱 。 近 年 来 ， 深 度 学 习 技术 被 广泛 应 用 于 目 
标 检测 。 基 于 深度 学 习 的 目标 检测 方法 能 够 自 迁 
应 提取 不 同 层 次 的 图 像 特征 ， 训 练 得 到 的 模型 可 
以 应 用 于 不 同 场景 ， 大 幅度 提升 模型 的 精度 和 泛 
ABE Hy 5, Mask R-CNN 模 型 是 近年 来 较为 常 
用 的 深度 学 习 算 法 之 一 ， 在 众多 的 应 用 场景 中 均 
取得 了 优秀 的 表现 。Mask R-CNN 通过 使 用 
RolAlign 改进 了 Faster R-CNN 的 RoIPooling， 并 
且 采 用 双 线 性 插值 算法 来 减 小 边界 框 回归 的 位 置 
IRZ l, Mask R-CNN 模型 不 仅 具 有 较 好 的 检测 
性 能 ， 还 能 对 检测 目标 进行 像素 级 的 分 割 ， 符 合 
本 研究 应 用 场景 的 需求 。 但 Msak R-CNN 在 进行 
蚕 体 和 残余 饲料 检测 时 ， 如 果 数 据 标 注 不 清 、 标 
注 区 域 存 在 其 它 背 景 、 目 标 物体 轮廓 重 倒 和 粘连 
等 ， 训 练 数据 中 存在 一 定 的 噪声 ， 会 降低 模型 检 
测 和 掩 人 码 分 割 的 精确 性 和 稳定 性 。 和 针对 此 问题 ， 
本 研究 利用 噪声 数据 对 Mask R-CNN 模 型 进行 改 
进 和 调整 ， 在 模型 框架 中 加 入 像素 重 加 权 策 略 和 
边界 框 细 调 策略 ， 以 提升 模型 对 看 体 和 饲料 边界 
的 分 割 能 力 。 


本 研究 利用 机 器 视觉 系统 获取 人 工 饲料 工厂 
化 养 乔 过 程 中 4 龄 和 5 龄 乔 的 数字 图 像 ， 并 利用 
噪声 数据 对 深度 学 习 模 型 Mask R-CNN 进行 改 
进 ， 用 于 对 图 像 中 的 和 看 体 和 残余 饲料 进行 目标 分 
市 ， 之 后 利用 分 割 掩 码 输出 对 不 生长 发 育 和 饲料 
剩余 等 情况 进行 评估 ， 为 工厂 化 养 大 中 人 工 饲料 
精准 饲 喂 设备 和 管理 系统 的 研发 提供 算法 支持 ， 
实现 工厂 化 养 乔 中 人 工 饲 料 投 喂 量 的 精确 控制 ， 
提高 饲料 利用 效率 。 


2 材料 和 方法 


2.1 数据 采集 和 预 处 理 


2.1.1 数据 采集 

数据 采集 地 点 为 浙江 省 嵊州 陌 又 高科 股 份 有 
限 公 司 的 工厂 化 养 居 人工 饲 料 喂食 车 间 (29°35'N, 
120°51' E) 。 家 符 品 种 为 “中 2016X 日 2016”， 
是 为 工厂 化 养生 培育 的 特有 品种 。 图 像 获 取 环 境 
温度 为 (2541) °C, EX 60% ~70%. 

ARRIR, Rman, BE 
个 龄 期 之 间 会 进行 一 次 休眠 O) ERN 
后 ， 和 春 体 都 会 长 大 ， 并 需要 更 多 的 食物 。 前 3 龄 
的 看 只 需要 很 少 的 食物 ， 约 占 整 个 生长 周期 所 需 
饲料 的 5%，4 龄 期 和 5 龄 期 消耗 饲料 占 整 个 春生 
长 周期 中 消耗 饲料 总 量 的 95% 以 上 。 因 此 ， 本 研 
究 仅 针对 4 龄 和 5 龄 的 乍 进行 识别 。 

图 像 采 集 设备 为 工业 相机 FLIR Blackfly S 
USB3， 镜 头 型 号 为 长 步道 FA3516A。 相 机 主要 
规格 参数 为 : 分 辨 率 2000 万 像素 ， 定 焦 镜 头 焦 
HE35 mm， 光 圈 F2.8，C-Mount 镜 头 类 型 BK 
Oy HER 5472X3648, WR 18 Vs 、 像 素 大 小 2.4 
num。 系 盒 在 流水 线 系 统 上 以 1.5 m/s 的 速度 水 平 
移动 ， 并 在 投 喂 饲料 时 有 5 s 左 右 的 停止 。 泰 盒 
的 尺寸 为 60cmX100cm 相机 安装 在 养 符 盒 单元 
停止 处 正 上 方 2m 处 ， 并 在 看 盒 停 留 间 际 进行 图 
像 拍摄 。 相 机 通过 USB 3.0 接 口 连接 到 笔记 本 电 
脑 ， 使 用 相机 附带 的 应 用 程序 进行 控制 操作 。 
2.1.2 ”图像 预 处 理 

原始 图 像 的 尺寸 较 大 ， 答 体 数量 较 多 ， 给 目 
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标 物 体 标 注 和 建 模 带 来 一 定 困难 。 为 提高 标注 效 
率 ， 统 一 图 像 尺 寸 ， 便 于 数据 处 理 和 后 续 分 析 ， 
对 原始 图 像 数据 进行 了 同 尺 十 裁剪， 裁剪 像 素 为 
2000X2000， 从 中 挑选 较为 清晰 的 数据 进行 后 续 
处 理 。 

数据 增 广 (Image Augmentation) 可 以 提高 
图 像 数据 的 质量 、 扩 大 训练 数据 集 的 规模 5 。 
本 研究 使 用 旋转 与 翻转 、 亮 度 增 强 、 添 加 噪声 3 种 
方法 对 原始 图 像 进行 增 广 。 旋 转 与 翻转 是 广泛 使 
用 的 图 像 增 广 方法 之 一 下， 对 所 有 图 像 进行 
90" 、180° 以 及 270° 旋 转 和 水 平 镜像 翻转 处 理 。 
由 于 工厂 化 养 看 对 车 间 照 度 有 严格 要 求 ， 不 室 光 
线 较 暗 ， 无 法 采用 常规 方法 进行 补 光 ， 原 始 图 像 
的 亮度 偏 低 ， 所 以 将 图 像 的 亮度 提升 20%， 用 于 
弥补 环境 光 强 的 不 足 。 此 外 ， 在 图 像 获取 过 程 


(c) 旋 转 处 理 


中 ， 图 像 采 集 设备 的 不 稳定 性 可 能 会 导致 随机 噪 
声 的 产生 。 针 对 此 ， 参 考 Zhou H 的 方法 ,在 
原始 图 像 中 加 入 方差 为 0.01 的 高 斯 噪声 ， 用 于 提 
升 模型 的 鲁 棒 性 。 处 理 后 的 数据 增加 到 训练 集 
中 ， 进 行 模型 训练 。 

在 对 图 像 进行 增 广 和 编号 后 ， 使 用 开源 图 形 
界面 标注 工具 Labelme 进 行 图 像 标 注 。 通 过 绘制 
多 边 形 来 标注 和 奏 体 和 残留 的 饲料 ， 标 注 完成 后 将 
图 片 保 存 为 *. Ison 文件 。 总 共 选 择 了 180 张 裁剪 
后 的 高 质量 图 片 进行 标注 ， 其 中 90 张 为 4 龄 ，90 张 
为 5 龄 。 每 张 图 像 包 含 约 150~200 个 蚕 体 标注 和 
30~-50 个 饲料 残留 标注 ， 对 图 像 边 缘 处 不 完整 的 
看 也 进行 标注 。 图 1 为 裁 前 后 的 4 龄 和 5 龄 看 的 
原始 图 像 及 不 同 预 处 理 结果 示例 。 


(b) 58 HAR 
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(e) E hm 


(f) 标 注 结果 


图 1 RGR Fe RRA RI BRA BEER 


Fig. 1 Original images after cropping and different pretreatment results 


2.2 Mask R-CNN 


Mask R-CNN 由 He 等 中 提出 ,通过 在 Faster 
R-CNN 网 络 中 添加 掩 码 分 支 ， 在 目标 检测 的 同 
时 实现 了 实例 分 割 。 该 模型 沿用 了 Faster R-CNN 
的 思想 ， 特 征 提 取 采 用 ResNet-FPN 架构 ， 男 外 
增加 了 一 个 Mask 预测 分 文 。Mask R-CNN 主要 
分 为 三 个 模块 ，Faster R-CNN, RolAlign 和 全 卷 
积 网 络 (Fully Convolutional Networks, FCN). 
其 采用 了 与 Faster R-CNN 相同 的 两 阶段 检测 方 
法 。 在 第 一 阶段 建立 区 域 候选 网 络 (Region Pro- 
posal Network, RPN), ， 然 后 进行 特征 提取 。 
在 第 二 阶段 ，Mask R-CNN 引 入 了 RoIAlign 方 法 
(REF Faster R-CNN 的 重 采 样 方法 RoIPooling |” . 
除了 类 别 检测 Mask R-CNN 会 为 每 个 候选 对 象 
输出 一 个 二 进 制 的 分 割 掩 码 "。Mask R-CNN 的 
损失 函数 工 表示 为 : 


L = Les + Lig + 了 (1) 
HP, Ly ERIK 5 Li 是 框 回归 损失 ; 
La 为 掩 码 损失 。 


为 了 针对 不 同 大 小 的 家 春 进 行 多 尺度 看 体 预 
测 ， 采 用 特征 金字 塔 网 络 (Feature Pyramid Net- 
work, FPN) 进行 多 尺度 特征 学 习 。FPN 采 用 自 
上 而 下 和 自 下 而 上 的 双向 多 尺度 边框 预测 方法 ， 
可 以 将 各 个 层级 的 特征 进行 融合 ， 使 其 同时 具有 
强 语义 信息 和 强 空间 信息 "”。 图 2 所 示 为 FPN 的 


结构 示意 图 。 本 研究 中 的 Mask R-CNN 采用 
ResNet50-FPN 的 骨干 网 络 进行 特征 提取 。 在 
RPN 生成 过 程 中 ，anchor 的 大 小 为 32、64、128、 
256 和 512， 尺 度 为 0.5、1.0 和 2.0。 


图 2 特征 金字 塔 网 络 结构 示意 图 


Fig. 2 The structure of feature pyramid network (FPN ) 


2.3 利用 噪声 数据 改进 Mask R-CNN 模 型 


2.3.1 原始 Mask R-CNN 模型 存在 问题 及 改进 
思路 

原始 Mask R-CNN 模 型 虽然 在 自然 图 像 分 割 
上 效果 优越 ， 但 在 分 割 小 物体 以 及 遮挡 严重 等 情 
况 下 分 割 性 能 仍 需 改 进 。 由 于 相互 重合 、 烙 连 以 
及 其 它 背 景物 体 的 干 捧 ， 乔 体 和 残余 饲料 的 边界 
可 能 存在 模糊 、 难 以 界定 的 情况 ， 导 致 标注 数据 
中 存在 一 定 的 错误 ， 给 模型 的 训练 带 和 噪声。 有 
噪声 情况 下 的 分 割 模型 可 能 出 现 以 下 问题 : Oa 
误 类 别 标签 损坏 检测 器 ; @ 错 误 分 割 掩 码 误导 模 
型 产生 不 精确 的 掩 码 预测 。 一 个 过 大 的 标注 区 域 
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将 导致 覆盖 更 多 的 背景 区 域 ， 而 过 小 的 标注 区 域 
无 法 覆盖 完整 看 或 饲料 。 这 些 因素 使 得 模型 无 法 
生成 精准 掩 码 ; (3 有 噪声 的 标注 导致 不 稳定 训练 
过 程 。 当 训练 数据 没有 正确 的 类 别 标签 或 精确 的 
手 码 标注 时 ， 模 型 在 训练 过 程 中 将 出 现 不 稳定 的 
现象 ， 损 失 函 数 不 稳 定 将 导致 学 习 参 数 无 法 收敛 
至 更 优 和 解 。 针 对 上 述 标注 噪声 对 模型 造成 的 影 
响 ， 本 研究 在 原始 Mask R-CNN 框 架 基础 上 ， 增 
加 一 个 像素 重 加 权 策 略 和 边界 框 细 调 策略 ， 从 噪 
声 数 据 中 训练 一 个 更 鲁 棒 的 目标 检测 模型 ， 实现 
模型 性 能 的 优化 和 提升 。 

2.3.2 ”主要 处 理 流程 

基于 噪声 数据 改进 的 Mask R-CNN 模型 训练 
过 程 如 下 。 

(1) 将 数据 集 分 为 训练 集 与 元 测试 集 ， 其 中 
元 测试 集中 的 图 片 为 人 工 检验 后 完全 正确 的 标注 
数据 ， 而 训练 集 的 标注 存在 噪声 。 

(2) 使 用 迁移 学 习 策 略 对 预 训 练 CNN 模型 
进行 微调 和 重 训 练 。 预 训练 模型 使 用 COCO 
(Common Objects in Context) 数据 集训 练 。 使 用 
原始 Mask R-CNN 框架 流程 进行 训练 集 数 据 训 
练 ， 获 得 初始 分 类 、 边 框 回 归 和 掩 码 分 市 结果 。 

(3) 像素 重 加 权 策 略 将 分 类 损失 值 作为 输 
入 ，0 表 示 像 素 重 加 权 策 略 中 的 参数 。 通 过 两 层 
感知 机 后 输出 权重 8 作为 像素 的 噪声 水 平 。 当 像 
素 标签 不 正确 时 ， 像 素 重 加 权 模 块 输出 较 小 的 权 
重 ， 而 对 于 正确 的 像素 标签 ， 像 素 重 加 权 模 块 输 
出 的 权重 较 大 。 

(4) 边界 框 细 调 策略 将 边界 框 回 归 损 失 作 为 
输入 ，0, 表 示 边 界 框 细 调 策略 中 的 参数 。 通 过 两 
层 感 知 机 后 输出 边框 位 移 变 换 参 数 ， 从 而 自 适 应 
地 修改 不 精确 的 标注 边界 ， 并 产生 更 准确 的 佑 
计 。 经 过 边界 框 细 调 后 ， 检 测 器 将 通过 更 准确 的 
回归 损失 进行 模型 优化 。 

像素 重 加 权 策 略 和 边界 框 细 调 策略 的 具体 算 
法 详 见 Xu 等 的 介绍 。 图 3 所 示 为 基于 噪声 数 
据 改 进 的 MaskR-CNN 模型 用 于 看 体 和 残余 饲料 
检测 的 框架 流程 。 将 所 有 180 张 图 像 分 成 训练 


集 、 验 证 集 、 元 测试 集 和 测试 集 4 个 数据 集 。 随 
机 选取 100 张 图 像 作为 训练 集 ， 用 于 模型 的 训 
练 。 选 取 20 张 图 像 作为 验证 集 ， 进 行 超 参数 的 
调试 和 选取 。 元 测试 集中 的 图 片 为 人 工 检 验 后 完 
全 正确 的 标注 数据 ， 用 于 像素 重 加 权 和 边界 框 细 
调 ， 共 有 20 张 图 像 。40 张 图 像 作为 测试 集 用 于 
模型 测试 和 性 能 评价 。 每 个 数据 集中 的 4 龄 和 5 
BE EEH E] 


2.4 模型 性 能 评价 


预测 结果 可 分 为 四 类 : 真正 例 (True Posi- 
tives，TP) 、 真 负 例 (True Negatives，TN)、 假 
iE fil] (False Positives, FP) 和 假 负 例 (False 
Negatives，FN)。TP 表 示 被 模型 预测 为 正 的 正 样 
本 ，TN 表 示 被 模型 预测 为 正 的 负 样 本 ，FP 表 示 
被 模型 预测 为 正 的 负 样 本 ，FN 表示 被 模型 预测 
为 负 的 正 样本 。 在 判定 上 述 四 种 预测 类 型 的 归属 
前 ， 需 要 预先 定义 交 并 比 (Intersection over 
Union，IoU) 阅 值 。IoU 衡量 检测 边界 与 真实 边 
界 (标注 边界 ) 之 间 的 重 车 率 ， 表 示 为 检测 结 
和 标注 区 域 的 重合 部 分 占 两 个 区 域 的 并 集 面 积 的 


比例 : 
JoU = Co oo N GroundTruth (2) 
CandidateBox U GroundTruth 


其 中 ，CandidateBox 为 检测 结果 边界 ; 
GroundTruth 为 标注 范围 边界 。 如 果 JoU 值 等 于 1， 
则 表示 预测 结果 与 标注 完全 重合 ; 7oV 越 接近 1， 
预测 结果 越 好 。 在 本 研究 中 ， 定 义 loU= 0.5 为 判 
定 预测 结果 的 国 值 ， 即 如 果 ToV 大 于 0.5， 将 该 
预测 结果 视 为 一 个 成 功 的 预测 ， 归 和 上述 四 种 类 
别 中 的 一 种 ; 如 果 小 于 0.5， 则 将 其 视 为 一 个 失 
败 的 预测 。 

在 本 研究 中 ， 利 用 准确 率 (Accuracy) 、 平 
均 精 度 (Average Precision，AP) 和 检测 速度 3 项 
指标 对 Mask R-CNN 模 型 的 性 能 进行 评价 。 
2.4.1 EHE 

准确 率 是 正确 分 类 的 样本 数 占 样 本 总 数 的 
比例 S 
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看 体 及 残余 饲料 数据 增 广 与 标注 


ROI Align 


ia FAR 
ResNet50-FPN 
Conv5 x Conv4 x Conv3_x 
x3 x6 x4 


1x 1/256/1 
3x3/256/1 


1*1/1024/1 


1x1/2048/1 


小 


Relu 


1x1/512/1 


图 3 基于 改进 Mask R-CNN #24! 9 LRA 0 HK FATAL GR BAO AE 


Fig. 3 The workflow of the silkworm and residual feed recognition and detection based on the improved Mask R-CNN model 


A eee sae (3) 
Cra — TP + TN + FP + FN 


其 中 ，TP+TN 为 正确 分 类 的 数量 ; TP+TN+ 
FP+FN 为 样本 总 数 。 整 个 数据 集 的 准确 率 是 所 
有 图 像 预测 结果 的 平均 值 。 

2.4.2 平均 精度 

平均 精度 (Precision) 和 召回 率 (Recall) 
是 评价 深度 学 习 模 型 性 能 的 常用 指标 ， 计 算 方式 
如 下 : 


ee TP 
Precision = TP + FP (4) 
TP 
Recall = ee a (5) 


其 中 ，TP+FP 表 示 目 标 物 的 预测 数量 ;TP+FN 
为 目标 物 的 真实 数量 。 查 准 率 表示 预测 结果 中 正 
确 的 比例 ， 查 全 率 表示 正确 预测 的 目标 样本 占 目 
标 样本 数量 的 比例 。 当 Precision 和 Recall 都 较 高 
时 ， 模 型 性 能 较 好 。 将 Precision 作为 纵 轴 ，Re- 
call 作为 横 轴 绘制 曲线 (P-R 曲线 )。AP 的 定义 
WA [rl Recall 值 下 的 平均 Precision 值 ， 计 算 方 法 
为 P-R 曲 线 的 积分 O: 


AP =f p(r)ar (6) 

Hp, pÆ? Precision; 7 为 Recall。4P 值 即 
为 P-R 曲线 下 方 围 成 的 面积 。4P 是 最 常用 的 目 
标 检 测 模型 性 能 评价 指标 之 一 。 本 研究 中 ，4P 
在 7o 阔 值 为 0.5 下 计算 ， 表 示 为 4P50。 
2.3.3 检测 速度 

运算 速度 是 检测 目标 算法 的 重要 评价 指标 。 
在 本 研究 中 ， 饲 料 投 喂 过 程 在 流水 线 上 进行 ， 
不 盒 单元 持续 移动 并 只 在 饲料 投放 时 作 短暂 的 停 
止 。 因 此 ， 为 实现 不 间断 检测 ， 模 型 运算 速度 必 
须 满足 一 定 要 求 。 采 用 最 大 运行 时 间 7,,,, FPP IY 
运行 时 间 (Average Running Time, ART) 两 个 
指标 对 深度 学 习 模 型 的 运算 速度 进行 评价 "1。 
在 特定 硬件 配置 下 ，7,,. 表 示 模 型 在 测试 集 图 片 
上 检测 所 需 的 单 张 最 长 时 间 ，ART 表 示 模 型 在 测 
斌 图像 上 执行 检测 过 程 所 需 的 单 张 平均 时 间 ，s/ 
张 ， 描 述 为 : 


art = (7) 
N, 
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HP, NAR Pe HY pon For A kA RA es 
行 时 间 ，s; N 是 图 像 的 数量 ， 张 。 


3 试验 与 结果 分 析 


3.1 试验 设置 和 模型 训练 参数 


使 用 迁移 学 习 策 略 对 预 训练 的 模型 进行 微调 
和 重 训练 。 预 训练 模型 使 用 COCO 数据 集训 练 。 
初始 学 习 率 为 0.02， 在 50,000 步 时 降低 为 
0.0001， 在 70,000 步 时 降低 到 0.00001。FPN 在 
2、3、4 和 5 残 差 块 单元 的 输出 上 执行 。 研 究 使 
用 开源 深度 学 习 框 架 PyTorch 用 于 模型 训练 ， 编 
程 语 言 为 Python。 试 验 在 Ubuntu 操作 系统 上 进 
行 ， 计 算 机 配置 32.0 GB 内 存 和 Intel@Core TM 
i7-9700K CPU @ 3.60 GHzx8 处 理 器 。 在 四 个 
NVIDIA Tesla V100 图 形 人 处理 单元 (Graphics Pro- 
cessing Unit, GPU) 上 并 行 训 练 。 使 用 验证 集 数 


据 进 行 模型 评估 和 超 参数 调整 ， 选 取 最 优 的 参数 


组 构建 模型 ， 再 用 测试 集 数 据 进行 模型 性 能 评 
估 。 模 型 其 他 初始 参数 见 表 1。 
表 1 看 体 和 残余 饲料 识别 模型 的 初始 化 参数 
Table 1 The initialization parameters of the model for silk- 


worm and residual feed 


图 像 尺 寸 /px MART ”动量 初始 学 习 率 总 步 长 / 步 权重 衰减 


512X512 16 0.8 0.02 85,000 0.0005 


3.2 检测 与 分 割 结果 


将 预测 结果 与 标注 数据 进行 比较 ， 评 佑 模型 
的 性 能 。 改 进 Mask R-CNN 模 型 的 检测 结果 如 图 4 
所 示 。 其 中 边框 表示 和 看 和 残余 饲料 的 识别 检测 结 
果 ， 掩 码 表示 分 割 结果 。 从 图 中 可 以 看 出 ， 改 进 
Mask R-CNN 模型 在 定位 目标 对 象 方面 表现 良 
好 ， 可 以 准确 识别 出 看 。 尽 管 看 赔 与 盔 体 较为 相 
似 ， 模 型 仍 可 以 准确 地 区 分 两 者 。 对 于 相互 重生 
的 看 也 有 和 较 好 的 识别 效果 。 


图 4 基于 改进 Mask R-CNN 模 型 的 自体 和 残余 饲料 检测 结果 


Fig. 4 The prediction results of silkworm and residual feed based on the improved Mask R-CNN model 


表 2 显示 了 Mask R-CNN 模型 和 改进 Mask 
R-CNN 的 检测 和 分 割 准确 率 以 及 A4P 值 结果 。 
Mask R-CNN 模 型 的 看 检测 和 分 割 4P50 分 别 为 


0.764 和 0.768， 识 别 准确 率 为 95.23%; 残余 饲料 
识别 表现 与 奉 体 相 比 较 差 ， 检 测 和 分 割 4P50 分 
别 为 0.602 和 0.611， 识 别 准确 率 为 85.35%。 改 进 
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Mask R-CNN 模 型 的 看 检测 和 分 割 4P50 分 别 为 
0.790 和 0.795， 识 别 准确 率 为 96.83%; 残余 饲料 
检测 和 分 割 4P50 分 别 为 0.641 和 0.653， 识 别 准确 
率 为 87.71%。 上 述 结 果 表 明 ， 改 进 Mask R-CNN 
模型 相 比 Mask R-CNN 模型 在 性 能 上 有 一 定 的 提 
升 ， 并 且 在 符 体 和 残余 饲料 的 检测 和 分 制 方面 表 
现 出 良好 的 性 能 ， 该 模型 可 作为 工厂 化 养 丰 人工 
人 饲料 精准 投 喂 控 制 系统 和 投 喂 硬件 装置 开发 的 核 
心算 法 。 
表 2 两 种 短 体 与 残余 饲料 检测 模型 的 性 能 


Table 2 The performance of the silkworm and residual feed 


detection models 


总 es 检测 分 割 
模型 目标 准确 率 06 
APSO APSO 
ae 95.23 0.764 0.768 
Mask R-CNN 


饲料 85.35 0.602 0.611 


ae 96.83 0.790 0.795 
改进 Mask R-CNN 


饲料 87.71 0.641 0.653 


在 检测 速度 方面 ， 训 练 完成 的 改进 Mask 
R-CNN 模 型 在 配置 NVIDIA Tesla V100 显 卡 和 i7- 
9700K CPU 的 计算 机 上 检测 测试 集 图 像 的 ART 
为 0.075 s, T, 为 0.142 s。 在 NVIDIA Jetson 
AGX Xavier 开 发 板 上 部 署 模型 进行 测试 ， 检 测 
ART 1.32 s, T 232.05 s。 该 运算 速度 可 以 达 
到 饲 咀 流 水 线 上 基于 机 需 视 觉 系统 的 看 体 和 残余 
饲料 的 实时 检测 要 求 。 


3.3 不 同龄 期 看 分 割 模型 表现 


由 于 不 同龄 期 看 的 形态 特征 不 同 ， 使 用 看 不 
同 生 长 阶段 的 图 像 数 据 训 练 的 模型 可 能 出 现 不 同 
的 检测 表现 。 为 比较 不 不 同龄 期 数据 集训 练 模型 
的 性 能 ， 将 整个 数据 集 分 为 4 龄 和 5 龄 两 类 , 分 
别 进行 不 体检 测 模型 的 训练 和 测试 。 从 表 3 所 示 
的 模型 测试 结果 可 以 看 出 ，5 龄 模型 比 表 2 中 完 
整数 据 模 型 的 表现 更 好 ， 而 4 龄 模型 的 表现 低 于 
完整 数据 模型 。 两 者 相 比 ，5 龄 数据 集训 练 的 模 
型 在 测试 数据 上 比 4 龄 模型 展现 出 更 好 的 性 能 。 
这 表明 训练 图 像 的 龄 期 将 影响 模型 的 检测 性 能 。 
乍 龄 较 大 的 模型 要 好 于 符 龄 较 小 的 模型 ， 这 是 因 


为 4 龄 的 看 体型 相对 较 小 ， 颜 色 上 暗 黄 上 且 分 布 密 

集 ， 而 5 龄 的 看 具有 更 清晰 的 轮 廊 特征 、 较 大 的 

个 体 和 更 少 的 重 半 情况 。 

表 3 不 同龄 期 看 数 据 训练 改进 Mask R-CNN 模 型 的 乔 
体检 测 性 能 

Table 3 The silkworm detection performances of the im- 

proved Mask R-CNN models using the training data of dif- 


ferent instars 


龄 期 准确 率 /% 检测 4P50 分 割 4P50 
4 龄 95.21 0.768 0.774 
5 龄 97.82 0.801 0.815 


3.4 看 体重 又 对 检测 性 能 影响 


生产 中 ， 乍 体 之 间 相 互 重生 的 情况 较 多 ， 可 
能 会 影响 检测 结果 。 本 节 分 析 了 改进 Mask R- 
CNN 模型 对 重 受 和 春 的 检测 性 能 。 图 5 为 重生 情况 
下 的 乔 的 检测 和 分 割 输出 实例 。 在 测试 图 像 中 ， 
出 现 重 且 情况 的 看 体 被 单独 统计 。 测 试 集中 共存 
在 823 条 被 覆盖 的 看 ， 占 总 看 数 的 13.4%。 被 重 
和 后 显露 的 两 段 或 三 段 春 体 被 准确 识别 为 同一 条 
看 的 结果 为 正确 识别 ， 这 些 春 体 的 总 体检 测 准 确 
率 为 95.06%， 略 低 于 整个 测试 数据 集 的 检测 准 
确 率 (96.83%) ， 这 说 明 重 县 情况 在 一 定 程度 上 
影响 了 检测 的 性 能 。 尽 管 如 此 ， 改 进 Mask R- 
CNN 对 重 琶 系 的 检测 性 能 依然 较为 理想 ， 准 确 
率 接近 于 完整 数据 集 ， 说 明 该 模型 对 短 体 的 检测 
性 能 较 强 ， 可 以 应 对 较为 复杂 的 相互 重 琶 情况 。 


(a)4 č (b)5 #5 
注 : 红 色 三 角形 指示 的 看 体 被 正确 检测 和 分 割 ,黄色 三 角形 指示 
的 自体 未 被 模型 检测 
AS 大体 重合 情况 下 的 检测 结果 


Fig. 5 Detection results for overlapped silkworms 
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3.5 数据 增 广 对 检测 性 能 影响 


为 评估 数据 增 广 对 模型 性 能 的 影响 ， 对 使 用 
完整 数据 建立 的 模型 和 使 用 剔除 不 同 处 理 图 像 的 
数据 集 构建 的 模型 进行 了 性 能 比较 。 根 据 表 4 所 
示 ，3 种 不 同 的 图 像 增强 方法 对 模型 精度 产生 了 
不 同 程度 的 影响 。 其 中 亮度 增强 方法 对 模型 性 能 
的 贡献 最 大 。 删 除 亮度 增强 处 理 的 图 像 ， 模 型 的 
准确 率 降低 了 3.49%， 检 测 APSO 和 分 割 4P50 也 
有 了 明显 的 下 降 。 旋 转 与 翻转 处 理 对 模型 性 能 的 帮 
助 较 弱 ， 移 除 旋 转 与 翻转 图 像 后 的 模型 准确 率 降 
低 了 2.04%。 高 斯 噪声 添加 对 模型 的 性 能 没有 明 
显 的 影响 。 

表 4 利用 不 同 数据 集训 练 的 改进 Mask R-CNN 模型 的 
乔 体 检测 性 能 


Table 4 The silkworm detection performances of the im- 


proved Mask R-CNN model trained by different datasets 


数据 集 准确 率 /% 检测 4P50 分 割 4P50 
完整 数据 集 96.83 0.790 0.795 
剔除 旋转 与 翻转 处 理 数据 94.79 0.773 0.771 
剔除 亮度 增强 数据 93.34 0.747 0.751 
剔除 噪声 添加 数据 96.02 0.785 0.791 


4 ”讨论 与 结论 


4.1 讨论 


人 工 饲 料 工 厂 化 养 春 是 养 不 业 的 技术 创新 ， 
为 中 国 养 看 业 的 发 展 提供 了 新 的 方向 。 根 据 看 的 
数量 饲 咀 人 工 饲 料 ， 可 有 效 提 高 饲料 利用 率 ， 降 
低 成 本 ， 提 高 在 草 的 整体 品质 。 泰 的 准确 计数 还 
可 为 预测 看 苗 产量 、 估 算 饲 料 用 量 、 计 算 家 檀 损 
失 量 提供 参考 数据 ， 为 生产 决策 提供 支持 ， 提 高 
工厂 化 养 奈 的 生产 管理 水 平 。 近 年 来 ， 深 度 学 习 
技术 在 目标 检测 中 得 到 了 越 来 越 多 的 应 用 。 基 于 
数字 图 像 的 目标 检测 结果 取决 于 目标 物体 的 大 
小 、 格 局 、 重 共度 、 图 片 质 量 和 训练 样本 量 等 多 
种 因素 。 在 本 人 研究 中 ， 数 据 类 别 (不 同龄 期 、 重 
GA) 会 影响 检测 结果 ， 这 与 Tian 等 ”的 研 
究 结果 一 致 。 数 据 增 广 处 理 能 够 提高 深度 学 习 模 


型 的 检测 能 力 ， 这 与 其 他 研究 结果 相 一 致 “”。 
亮度 增强 方法 对 模型 的 性 能 提高 具有 最 大 的 
贡献 。 

随 着 整个 技术 体系 的 不 断 更 新 和 完善 ， 大 规 
模 全 龄 人 工 饲 料 工厂 化 养 春 产业 化 日 趋 成 熟 。 本 
研究 证 实 了 深度 学 习 技 术 在 工厂 化 养 乍 中 鼻 和 人 饲 
料 残 酒 检测 的 可 行 性 。 然 而 ， 目 前 还 存在 一 些 问 
题 需要 在 未 来 的 工作 中 人 解决。 例如， 春 体 相互 重 
符 较 多 会 降低 模型 的 检测 性 能 ， 后 续 需 要 进一步 
分 析 其 影响 程度 并 增加 此 类 训练 样本 ， 以 提高 模 
型 的 检测 和 分 割 能 力 。 在 残余 人 工 饲料 检测 方 
面 ， 由 于 其 形状 不 规则 ， 表 面 质地 多 样 且 不 均 
匀 ， 以 及 部 分 被 看 体 覆 盖 ， 给 识别 带 来 了 较 大 的 
困难 。 另 外 ， 家 看 凑 便 的 颜色 和 表面 纹理 与 残留 
饲料 相似 ， 使 得 数据 标注 较 困难 ， 容 易 出 错 ， 而 
错误 的 标注 又 会 导致 识别 的 错误 。 因 此 ， 模 型 在 
残余 饲料 检测 性 能 方面 还 存在 较 大 的 提升 空间 。 

利用 改进 Mask R-CNN 模 型 的 分 割 掩 码 输出 
可 以 进一步 分 析 看 的 大 小 和 勾 整 度 ， 以 及 残余 人 
工 饲 料 的 重量 估算 。 这 些 信息 可 用 于 饲料 用 量 管 
理 、 看 草 大 小 和 匀 整 性 预测 等 环节 。 此 外 ， 该 技 
术 在 家 奉 育 种 的 表 型 分 析 ， 如 看 大 小 、 匀 整 性 、 
死亡 率 和 生长 速率 计算 评价 等 方面 具有 很 大 的 应 
用 潜力 。 
4.2 结论 


为 实现 自动 识别 养 符 盒 鼻头 数 ， 本 研究 提出 
了 一 种 利用 噪声 数据 改进 的 Mask R-CNN 模型 ， 
用 于 家 蚕 和 残留 人 工 饲料 的 检测 ， 为 工厂 化 养 鼻 
中 精准 饲 喂 管理 系统 和 投 喂 装 置 的 研发 提供 核心 
算法 。 

利用 噪声 数据 改进 的 Mask R-CNN 模 型 对 家 
蚕 和 人 工 饲料 残渣 具有 较 好 的 检测 能 力 ， 总 体检 
测 准确 率 分 别 达 到 96.83% 和 87.71%, KARAT RE 
测 和 分 制 APSO 分 别 为 0.790 和 0.795， 对 残余 饲 
料 的 检测 和 分 制 4P50 分 别 为 0.641 和 0.653 。 

模型 在 NVIDIA Jetson AGX Xavier 开 发 板 上 
测试 的 4RT 为 1.32s，7T,, 为 2.05 s， 可 以 实现 工 
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MBit AK ARE Be AS AVR AS Ta AY SEIT A 


本 人 研究 建立 的 模型 在 精度 和 运算 速度 上 可 满 


足 工业 流水 线 上 养 在 盒 单元 中 春 体 的 快速 准确 检 


测 ， 


因此 可 作为 工厂 化 养 不 中 人 工 饲料 精准 投 喂 


控制 言 息 系统 和 投 喂 装置 开发 的 核心 算法 。 


未 来 的 工作 重点 是 进一步 提高 模型 的 精度 、 


鲁 棒 性 和 稳定 性 。 为 提高 模型 的 性 能 ， 将 引入 更 
大 规模 的 训练 图 像 数据 集 ， 特 别 是 太 体 相互 重生 
和 烙 连 的 样本 ， 以 及 更 多 样 的 残余 饲料 样本 。 男 


四 
析 ， 


下 一 步 将 选取 不 同 结构 的 模型 进行 对 比分 
对 矢 体 和 残余 饲料 的 图 像 特征 提取 、 检 测 和 


轮廓 分 割 作 更 深入 的 研究 。 
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Identification and Counting of Silkworms in Factory 
Farm Using Improved Mask R-CNN Model 


HE Ruimin', ZHENG Kefeng’, WEI Qinyang', ZHANG Xiaobin’, ZHANG Jun’, 
ZHU Yihang’, ZHAO Yiying’, GU Qing” 


(1. Shengzhou Mosang High-tech Co. , Ltd. , Shaoxing 312400, China; 
2. Institute of Digital Agriculture, Zhejiang Academy of Agricultural Sciences, Hangzhou 310021, China) 


Abstract: Factory-like rearing of silkworm (Bombyx mori) using artificial diet for all instars is a brand-new rearing mode of silk- 
worm. Accurate feeding is one of the core technologies to save cost and increase efficiency in factory silkworm rearing. Auto- 
matic identification and counting of silkworm play a key role to realize accurate feeding. In this study, a machine vision system 
was used to obtain digital images of silkworms during main instars, and an improved Mask R-CNN model was proposed to de- 
tect the silkworms and residual artificial diet. The original Mask R-CNN was improved using the noise data of annotations by 
adding a pixel reweighting strategy and a bounding box fine-tuning strategy to the model frame. A more robust model was 
trained to improve the detection and segmentation abilities of silkworm and residual feed. Three different data augmentation 
methods were used to expand the training dataset. The influences of silkworm instars, data augmentation, and the overlap be- 
tween silkworms on the model performance were evaluated. Then the improved Mask R-CNN was used to detect silkworms and 
residual feed. The AP50 (Average Precision at IoU=0.5) of the model for silkworm detection and segmentation were 0.790 and 
0.795, respectively, and the detection accuracy was 96.83%. The detection and segmentation APSO of residual feed were 0.641 
and 0.653, respectively, and the detection accuracy was 87.71%. The model was deployed on the NVIDIA Jetson AGX Xavier 
development board with an average detection time of 1.32 s and a maximum detection time of 2.05 s for a image. The computa- 
tional speed of the improved Mask R-CNN can meet the requirement of real-time detection of the moving unit of the silkworm 
box on the production line. The model trained by the fifth instar data showed a better performance on test data than the fourth in- 
star model. The brightness enhancement method had the greatest contribution to the model performance as compared to the oth- 
er data augmentation methods. The overlap between silkworms also negatively affected the performance of the model. This 
study can provide a core algorithm for the research and development of the accurate feeding information system and feeding de- 
vice for factory silkworm rearing, which can improve the utilization rate of artificial diet and improve the production and man- 
agement level of factory silkworm rearing. 


Key words: silkworm; artificial diet; accurate feeding; machine vision; deep learning; mask R-CNN; noise data 
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